智能论文笔记

Spatial-temporal Concept based Explanation of 3D ConvNets

Ying Ji , Yu Wang , Kensaku Mori , Jien Kato

分类：计算机视觉 | 人工智能

2022-06-09

最近的研究在解释2D图像识别转向网络方面取得了杰出的成功。另一方面，由于视频数据的计算成本和复杂性，对3D视频识别转弯的说明相对较少。在本文中，我们提出了一个3D ACE（基于自动概念的解释）框架，用于解释3D Convnets。在我们的方法中：（1）使用高级Subervoxels表示视频，这对于人类来说是简单的；（2）解释框架估计每个体素的分数，这反映了其在决策过程中的重要性。实验表明，我们的方法可以发现不同重要性级别的时空概念，因此可以探索概念对目标任务的影响，例如动作分类，深度。这些代码公开可用。

translated by 谷歌翻译

Realistic Endoscopic Image Generation Method Using Virtual-to-real Image-domain Translation

Masahiro Oda , Kiyohito Tanaka , Hirotsugu Takabatake , Masaki Mori , Hiroshi Natori , Kensaku Mori

分类：计算机视觉

2022-01-13

本文提出了一种用于内窥镜仿真系统中的可视化的现实图像生成方法。在许多医院进行内窥镜诊断和治疗。为了减少与内窥镜插入相关的并发症，内窥镜仿真系统用于内窥镜插入的训练或排练。然而，电流模拟系统产生非现实的虚拟内窥镜图像。为了提高仿真系统的值，需要提高其生成的图像的现实。我们提出了一种用于内窥镜仿真系统的现实图像生成方法。通过使用来自患者的CT体积的体积渲染方法来生成虚拟内窥镜图像。我们使用虚拟到实图像域翻译技术改善虚拟内窥镜图像的现实。图像域转换器实现为完全卷积网络（FCN）。我们通过最小化循环一致性损失函数来训练FCN。使用未配对的虚拟和真实内窥镜图像训练FCN。为了获得高质量的图像域翻译结果，我们执行将图像清理到真实内窥镜图像集。我们测试了使用浅U-Net，U-Net，Deep U-Net和U-Net作为图像域转换器的剩余单元。具有剩余单位的深U-Net和U-Net产生了非常现实的图像。

translated by 谷歌翻译

Depth Estimation from Single-shot Monocular Endoscope Image Using Image Domain Adaptation And Edge-Aware Depth Estimation

Masahiro Oda , Hayato Itoh , Kiyohito Tanaka , Hirotsugu Takabatake , Masaki Mori , Hiroshi Natori , Kensaku Mori

分类：计算机视觉

2022-01-12

我们通过使用多尺度边缘损耗，通过使用域改性和深度估计来提出一种从单次单眼镜片图像中的深度估计方法。我们采用了两步估计过程，包括来自未配对数据和深度估计的兰伯语表面平移。器官表面上的纹理和镜面反射降低了深度估计的准确性。我们将Lambertian表面翻译应用于内窥镜图像以消除这些纹理和反射。然后，我们通过使用完全卷积网络（FCN）来估计深度。在FCN的训练期间，改善估计图像和地面真理深度图像之间的对象边缘相似性对于获得更好的结果是重要的。我们介绍了一个Muti-Scale边缘损耗功能，以提高深度估计的准确性。我们定量评估了使用真实的结肠镜片图像的所提出的方法。估计的深度值与真实深度值成比例。此外，我们将估计的深度图像应用于使用卷积神经网络自动解剖学位置识别的结肠镜图像。通过使用估计的深度图像，网络的识别精度从69.2％提高到74.1％。

translated by 谷歌翻译

COVID-19 Infection Segmentation from Chest CT Images Based on Scale Uncertainty

Masahiro Oda , Tong Zheng , Yuichiro Hayashi , Yoshito Otake , Masahiro Hashimoto , Toshiaki Akashi , Shigeki Aoki , Kensaku Mori

分类：计算机视觉 | 机器学习

2022-01-09

本文提出了来自Covid-19患者CT体积的肺部感染区的分段方法。 Covid-19在全球范围内传播，造成许多受感染的患者和死亡。 CT图像的Covid-19诊断可以提供快速准确的诊断结果。肺中感染区的自动分割方法提供了诊断的定量标准。以前的方法采用整个2D图像或基于3D卷的过程。感染区域的尺寸具有相当大的变化。这种过程容易错过小型感染区域。基于补丁的过程对于分割小目标是有效的。然而，在感染区分割中选择适当的贴片尺寸难以。我们利用分段FCN的各种接受场大小之间的规模不确定性以获得感染区域。接收场尺寸可以定义为贴片尺寸和块从斑块的卷的分辨率。本文提出了一种执行基于补丁的分割的感染分段网络（ISNet）和尺度的不确定性感知预测聚合方法，其改进分割结果。我们设计ISNET到具有各种强度值的分段感染区域。 ISNet具有多个编码路径来处理由多个强度范围归一化的修补程序卷。我们收集具有各种接收场尺寸的ISNet产生的预测结果。预测聚合方法提取预测结果之间的规模不确定性。我们使用聚合FCN来在预测之间的规模不确定性来生成精确的分段结果。在我们的实验中，使用199例Covid-19案例，预测聚集方法将骰子相似度评分从47.6％提高到62.1％。

translated by 谷歌翻译

Lung infection and normal region segmentation from CT volumes of COVID-19 cases

Masahiro Oda , Yuichiro Hayashi , Yoshito Otake , Masahiro Hashimoto , Toshiaki Akashi , Kensaku Mori

分类：计算机视觉 | 机器学习

2022-01-09

本文提出了COVID-19患者肺部肺部感染和正常区域的自动分割方法。从2019年12月起，2019年新型冠状病毒疾病（Covid-19）遍布世界，对我们的经济活动和日常生活产生重大影响。为了诊断大量感染的患者，需要计算机诊断辅助。胸部CT对于诊断病毒性肺炎，包括Covid-19是有效的。 Covid-19的诊断辅助需要从计算机的CT卷的肺部条件的定量分析方法。本文用Covid-19分割完全卷积网络（FCN）提出了来自CT卷中的CT卷中肺部感染和正常区域的自动分割方法。在诊断包括Covid-19的肺部疾病中，肺部正常和感染区域的条件分析很重要。我们的方法识别CT卷中的肺正态和感染区。对于具有各种形状和尺寸的细分感染区域，我们引入了密集的汇集连接并扩张了我们的FCN中的互联网。我们将该方法应用于Covid-19案例的CT卷。从轻度到Covid-19的严重病例，所提出的方法在肺部正确分段正常和感染区域。正常和感染区域的骰子评分分别为0.911和0.753。

translated by 谷歌翻译

Supervised Anomaly Detection Method Combining Generative Adversarial Networks and Three-Dimensional Data in Vehicle Inspections

Yohei Baba , Takuro Hoshi , Ryosuke Mori , Gaurang Gavai

分类：计算机视觉 | 机器学习

2022-12-22

The external visual inspections of rolling stock's underfloor equipment are currently being performed via human visual inspection. In this study, we attempt to partly automate visual inspection by investigating anomaly inspection algorithms that use image processing technology. As the railroad maintenance studies tend to have little anomaly data, unsupervised learning methods are usually preferred for anomaly detection; however, training cost and accuracy is still a challenge. Additionally, a researcher created anomalous images from normal images by adding noise, etc., but the anomalous targeted in this study is the rotation of piping cocks that was difficult to create using noise. Therefore, in this study, we propose a new method that uses style conversion via generative adversarial networks on three-dimensional computer graphics and imitates anomaly images to apply anomaly detection based on supervised learning. The geometry-consistent style conversion model was used to convert the image, and because of this the color and texture of the image were successfully made to imitate the real image while maintaining the anomalous shape. Using the generated anomaly images as supervised data, the anomaly detection model can be easily trained without complex adjustments and successfully detects anomalies.

translated by 谷歌翻译

Spatiotemporal forecasting of track geometry irregularities with exogenous factors

Katsuya Kosukegawa , Yasukuni Mori , Hiroki Suyari , Kazuhiko Kawamoto

分类：机器学习 | 人工智能

2022-11-07

To ensure the safety of railroad operations, it is important to monitor and forecast track geometry irregularities. A higher safety requires forecasting with a higher spatiotemporal frequency. For forecasting with a high spatiotemporal frequency, it is necessary to capture spatial correlations. Additionally, track geometry irregularities are influenced by multiple exogenous factors. In this study, we propose a method to forecast one type of track geometry irregularity, vertical alignment, by incorporating spatial and exogenous factor calculations. The proposed method embeds exogenous factors and captures spatiotemporal correlations using a convolutional long short-term memory (ConvLSTM). In the experiment, we compared the proposed method with other methods in terms of the forecasting performance. Additionally, we conducted an ablation study on exogenous factors to examine their contribution to the forecasting performance. The results reveal that spatial calculations and maintenance record data improve the forecasting of the vertical alignment.

translated by 谷歌翻译

Recipe Generation from Unsegmented Cooking Videos

Taichi Nishimura , Atsushi Hashimoto , Yoshitaka Ushiku , Hirotaka Kameko , Shinsuke Mori

分类：自然语言处理 | 计算机视觉

2022-09-21

本文从未分割的烹饪视频中解决了食谱生成，该任务要求代理（1）提取完成盘子时提取关键事件，以及（2）为提取的事件生成句子。我们的任务类似于密集的视频字幕（DVC），该字幕旨在彻底检测事件并为其生成句子。但是，与DVC不同，在食谱生成中，食谱故事意识至关重要，模型应以正确的顺序输出适当数量的关键事件。我们分析了DVC模型的输出，并观察到，尽管（1）几个事件可作为食谱故事采用，但（2）此类事件的生成句子并未基于视觉内容。基于此，我们假设我们可以通过从DVC模型的输出事件中选择Oracle事件并为其重新生成句子来获得正确的配方。为了实现这一目标，我们提出了一种基于变压器的新型训练事件选择器和句子生成器的联合方法，用于从DVC模型的输出中选择Oracle事件并分别为事件生成接地句子。此外，我们通过包括成分来生成更准确的配方来扩展模型。实验结果表明，所提出的方法优于最先进的DVC模型。我们还确认，通过以故事感知方式对食谱进行建模，提出的模型以正确的顺序输出适当数量的事件。

translated by 谷歌翻译

A Few-shot Approach to Resume Information Extraction via Prompts

Chengguang Gan , Tatsunori Mori

分类：自然语言处理

2022-09-20

已显示迅速学习可以在大多数文本分类任务中实现近调调节性能，但很少有培训示例。对于样品稀缺的NLP任务是有利的。在本文中，我们试图将其应用于实际情况，即恢复信息提取，并增强现有方法，以使其更适用于简历信息提取任务。特别是，我们根据简历的文本特征创建了多组手动模板和语言器。此外，我们比较了蒙版语言模型（MLM）预培训语言模型（PLM）和SEQ2SEQ PLM在此任务上的性能。此外，我们改进了口头设计的设计方法，用于知识渊博的及时调整，以便为其他基于应用程序的NLP任务的迅速模板和语言设计的设计提供了示例。在这种情况下，我们提出了手动知识渊博的语言器（MKV）的概念。构造与应用程序方案相对应的知识渊博的口头表的规则。实验表明，基于我们的规则设计的模板和言语器比现有的手动模板更有效，更强大，并自动生成及时方法。已经确定，当前可用的自动提示方法无法与手动设计的及时模板竞争一些现实的任务方案。最终混淆矩阵的结果表明，我们提出的MKV显着解决了样本不平衡问题。

translated by 谷歌翻译

Visual Recipe Flow: A Dataset for Learning Visual State Changes of Objects with Recipe Flows

Keisuke Shirai , Atsushi Hashimoto , Taichi Nishimura , Hirotaka Kameko , Shuhei Kurita , Yoshitaka Ushiku , Shinsuke Mori

分类：自然语言处理 | 人工智能

2022-09-13

我们提出了一个名为“ Visual配方流”的新的多模式数据集，使我们能够学习每个烹饪动作的结果。数据集由对象状态变化和配方文本的工作流程组成。状态变化表示为图像对，而工作流则表示为食谱流图（R-FG）。图像对接地在R-FG中，该R-FG提供了交叉模式关系。使用我们的数据集，可以尝试从多模式常识推理和程序文本生成来尝试一系列应用程序。

translated by 谷歌翻译